Abstract & Introduction
作者收集发布并分析了一个新的幽默数据集——Humicroedit
- 样本结构:(常规英文标题, 替换编辑词, 幽默分数)
- 5名评委给15095条编辑过的标题打分,分数范围是0~3
作者表示这种简单的单词替换使得标题变幽默的应用,是分析幽默产生原因很好的过程,在这过程中也能得到经典幽默理论的支撑
最后作者还开发了一个基线分类器来预测编辑后的标题是否有趣。
计算幽默难,尽管自动幽默识别(automatic humor recognition)上有进展,但计算化幽默生成(computerized humor generation)的进展微小。这是由于幽默涉及到世界级的深度知识、常识和从多层级上感知实体和对象之间关系的能力。(这TM换做是人类也无法游刃有余感受和表达幽默😄)
两部构建Humicroedit。首先,我们从发布在Reddit(Reddit.com)上的新闻媒体收集原始新闻标题。然后,我们让来自亚马逊Mechanical Turk(mturk.com)的专家注释员(i)通过对这些标题进行小编辑来生成幽默,并(ii)判断这些编辑中的幽默。
%20Hair%20Dataset%20and%20Analysis%20of%20Creative%20Text%20Editing%20for%20Humorous%20Headlines/fig1.png)
- 这个Humicroedit数据集能干什么呢?
- 了解幽默产生的原因
- 做幽默识别
- 对多组编辑后的标题做幽默排序
- 做幽默生成
- 幽默推荐
The Humor Dataset
Task Description
目标是研究对标题进行简短编辑是如何产生幽默的。新闻标题很适合幽默,因为它们只用几个词就能传达丰富的信息。
编辑是指插入一个单字名词或动词来替换现有实体或单字名词和动词。
why only noun/verb?
- 例如,在替换形容词和副词时,我们的编辑大多使用反义词或最高级。另一方面,转换名词和动词可以在实体和动作之间引入各种新颖的联系。
how do it?
- 先做命名实体识别(NER, name entity recognition)和词性标记(POS),然后只将那些众所周知的实体/动词标注起来作为候选可替换单词。
Collecting Headlines
- 【来源】新闻标题收集来自于Reddit的/worldnews 和 /politics板块。进行长度限制(单词数4~20),重复删除等预处理最终得到287,067条数据。
Annotation
【标注人员】标注工作来自于amazon的众包网站Mechanical Turk。作者保证了标注者都居住在美国、经常参与众包且口碑不错、对幽默有感觉等特点。
【合理化评判幽默的规则】无视问题、实体和信息的立场;代表广大观众进行幽默判断;若编辑后是幽默的或者相对编辑前是幽默的则可以判定为幽默。
【评判幽默资格设置】
- [设置考卷]:作者内部团队设置了20个编辑后的标题,并内部进行打分(0~3分),并将平均分数为1.0的归类为有趣。
- [筛选考生]:找到了150个合格的评判幽默的人,这些人对幽默的归类分类正确个数为17个以上,并且平均而言,他们的评判分数在答案的范围内(-0.6 ~ +0.6)
【编辑幽默资格设置】
- [设置考卷]:6个任务每个任务有10条标题,只需要完成其中一个任务。要求如下:不能亵渎、俚语、厕所幽默、粗鲁的性暗示或非正式语言(将多个单词压缩为一个单词)。
- [筛选考生]:有7个评委对他们的编辑标题进行幽默打分,筛选出100名合格的编辑人员,他们的平均趣味程度都在0.8以上
Ps:讲个笑话,作者在论文里埋的彩蛋笑话比他的数据集中笑话水平高🤣
Humor Analysis
作者在这一节中分析了哪些类型的微编辑在我们的数据集中有效地创建幽默,并在幽默理论的背景下讨论了发现。
humor generation strategies(幽默生成策略)
作者通过手动检查,深入了解我们的编辑使用的幽默生成策略
- 使用一个与相邻单词形成有意义的n-gram的单词。如:ID 6:
Wallsesame street. - 语义距离和发音相似替换。如:
tiespies - 在标题中使用与某个实体有密切联系的单词。如:特朗普和头发;奥巴马和耳朵。
- 制造讽刺
- 贬低标题中的实体或名词。如:Obama’s
yearsears - 紧张情绪抑制,让严肃的标题变得愚蠢
- 插入产生不一致性的单词
- 铺垫和笑点:让标题朝着预期的结尾发展,然后朝着结尾改变单词,以产生连贯但令人惊讶的结尾
Clusters of Replacement Words(词簇分析)
作者对所有替换词进行Glove和k近邻分析(k = 20),得到20组词簇。作者拿其他工作的词簇跟自己的词簇进行一致性分析,发现一致性很高哇。也许这些词簇中的词是引发大众幽默的关键点
%20Hair%20Dataset%20and%20Analysis%20of%20Creative%20Text%20Editing%20for%20Humorous%20Headlines/fig3.png)
Support for Theories of Humor(幽默理论得到数据集的支持)
笑话的长度
一句新闻标题笑话中的单词数太短不行,太长也不行
- 太短可能没有足够的上下文来编辑信息
- 太长可能过于复杂导致不好笑
可供编辑的笑话单词数太少不行,太多也不行
更高的不一致性可以导致更有质量的笑话
笑点通常在笑话的末尾处,即在有足够多铺垫后出现
笑话经常表达我们对他人的优越感。Mihalcea和Pulman(2007)在分析幽默文本时发现,这会导致在笑话中频繁使用负面情绪。作者在替换词簇的实验中中发现了类似的支持,其中标记为侮辱、人类缺陷和腐败的簇都由倾向于诋毁他人的词组成,约占编辑插入的替换词的12%。
Humorous Headline Detection
作者用浅层机器学习方法和LSTM跑了几组基线。值得关注的两个方面是
当选取的数据幽默等级相差较大时,区分幽默和非幽默是相对容易的(如下图,其中X是取幽默等级量表(分数为:0~3)的前/后X%作为非幽默/幽默的分割点)
此外,替换过程涉及实体的时候,模型的表现往往不佳。
- 也许是因为理解实体需要更多的世界性知识
- 也许是因为GloVe向量训练数据是来源于2014年前,而作者的数据集数据来自2017-2018年间。